查看原文
其他

清华发布最新研究,使用大模型玩狼人杀

灵度智能 灵度智能
2024-09-09

Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf


清华近期发了一个人类社会模拟实验,使用大模型玩狼人杀。8个大模型“坐”在一起,生动地扮演出了五种角色,和真人如出一辙。



论文地址:https://arxiv.org/pdf/2309.04658.pdf


摘要


本文探讨了如何让大型语言模型(LLMs)参与通信游戏,并提出了一种无需调整参数的框架。该方法通过检索和反思过去的通信和经验来改进,可以有效地玩“狼人杀”游戏。实验结果表明,该框架可以使LLMs表现出战略行为,为将LLMs应用于通信游戏和相关领域提供了有益的启示。


简介


本文介绍了不完全信息博弈在经济学和社会科学中的应用,以及人工智能在玩这些游戏方面的研究。其中,依赖自然语言交流的沟通游戏具有更大的实际价值和挑战。虽然已经有很多研究致力于这些游戏,但大多数都对游戏中使用的语言施加了严格的限制。目前,AI代理在进行自然的沟通游戏方面仍然存在挑战。现有的方法要么需要大量的人工标注数据,要么需要复杂的模型和算法。因此,AI代理在自然的沟通游戏中表现自然仍然是一个难题。

大型语言模型(LLMs)如ChatGPT已经取得了显著进展,展示了高级的语言理解、生成和推理能力。LLMs还具有一定的心理理论能力和模拟人类行为的潜力。最近的研究表明,LLMs可以通过相互交流来改进自己或更好地与人类价值观保持一致。这些进展使LLMs成为解决使AI代理更自然、更复杂地参与通信游戏的挑战的有希望的候选者。

LLMs在玩沟通游戏时面临着限制,如有限的输入长度、理解其他玩家意图和做出适当决策的复杂推理以及调整行为的困难。此外,微调LLMs需要大量数据和时间,不切实际。

本文提出了一种基于LLM的代理机制,用于玩狼人杀游戏。为了解决上下文长度的限制问题,提出了一种检索和反映必要历史信息的方法,从而为每个LLM代理生成紧凑的上下文。此外,反映过程还可以增强代理的推理能力。为了从经验中学习,提出了一种机制,基于当前情况从过去的经验中提取建议。实验表明,LLM在玩通信游戏方面具有巨大潜力。

本文贡献如下:

  • 提出了一个框架,用于在没有人工注释数据的情况下进行与冻结LLMs的通信游戏。

  • 通过对狼人游戏的实证研究,证明了我们的框架能够在不调整LLMs参数的情况下从经验中学习。

  • 战略行为如信任、对抗、伪装和领导力开始出现,这可能成为进一步研究LLMs在通信游戏中的催化剂。


狼人杀



狼人杀游戏的一个版本,包括七个玩家和五种不同的角色。游戏分为白天和黑夜两个阶段,狼人在黑夜中投票杀死一个角色,白天所有玩家讨论并投票杀死一个可疑的狼人。村民和特殊角色需要合作消灭所有狼人,至少要有一个村民活着才能获胜。特殊角色包括女巫、守卫和预言家,分别可以使用解药、毒药、保护和查验等技能。

狼人杀游戏的重要特点是所有玩家在开始时只知道自己的角色,必须通过自然语言交流和推理来推断其他玩家的角色。因此,要在狼人杀游戏中表现出色,代理人不仅需要擅长自然语言理解和生成,还需要具备高级能力,如解读他人意图和理解心理理论。这使得狼人杀成为研究通信游戏的良好测试平台。


使用LLMs玩狼人杀


符号


一个游戏模型,其中有多个代理人参与,每个代理人会进行交流并生成回应、观察和反思。游戏由多个日夜循环组成,称为一轮,每个日夜循环称为一天。本文还介绍了代理人生成自然语言摘要的过程。


整体框架



游戏中的每个角色都有一个基于LLM的代理程序,它由四个主要组件组成:游戏规则、分配的角色、每个角色的能力和目标、以及一些有效游戏策略的基本人类先验知识;最近的K条消息、一组启发式选择的信息性消息和代理程序的反思;从过去的经验中提取的建议;以及用于引出推理的思维链提示。其中第二个组件的主要挑战是LLM的上下文长度有限。第三个组件负责从经验中学习,而无需调整模型参数,并将在第3.4节中介绍。

我们的方法可以利用跨回合经验,并适用于多人场景,与Shinn et al. (2023)和Fu et al. (2023)相比,前者仅限于使用单轮经验,后者设计用于双人游戏。

历史信息收集


通信历史在Werewolf中起着重要作用,但由于LLMs的上下文长度限制,无法将所有历史信息通过提示输入。因此,我们建议从新鲜度、信息量和完整性三个角度收集历史信息,以考虑效果和效率。

新鲜。为了保持新鲜度,我们将最近的K条消息包括在上下文中。

信息量。为了提高效率,我们使用规则匹配来收集易于识别的信息性消息,并将排名前N的消息填充到提示中,以揭示代理人的角色。规则和度量标准在附录A.1中提供。

完整性。为了获取更完整的历史信息,需要采用回答问题的方法进行反思。这种反思被称为Rit。由于LLMs的上下文长度限制,这种方法既有效又高效。

为了让LLM尽可能地了解历史信息,我们先为每个代理建立一个短期记忆Mti,然后从预定义的问题集中选择L个问题,并在Oit的条件下询问M个额外的问题。对于每个问题,我们使用finetuned Sentence-BERT模型从Mti中检索前T个消息Ui,jt,并提示LLM获取答案ati,j。



Rit是通过反思最近的消息Oit、易于识别的信息性消息Vit和答案Ati来获得的。



生成文本摘要,提炼上述段落的要点,用简洁的语言,不啰嗦,用中文。


从经验中学习


为了让狼人游戏AI代理能够借鉴自己和其他玩家的经验,提出了一种非参数学习机制。在每轮结束时,收集并评分所有玩家的反应和反思,形成经验池。在新一轮的每一天,从经验池中检索最相关的经验,并从中提取建议来指导代理的推理。

经验池是一个包含回应、反思和评分元组的集合。在每一轮游戏中,获胜的代理者组成集合W,其他代理者组成集合L。对于每个代理者i,我们定义从其收集的经验Eir为该轮游戏结束时的天数Tmax。



Gti和Rit分别是上一节中定义的响应和反射,sti是得分,其定义如下。



经验池是指从所有代理在所有回合中收集的经验的集合。



s(r,t)i的定义旨在鼓励代理赢得游戏并尽快获胜,或者至少在无法获胜时尽可能缓慢地输掉游戏。初步实验表明,这种定义可以指导LLMs从经验中学习,未来的工作将探索更复杂的评分函数。

建议提取。为了解决经验池和LLMs最大上下文限制的问题,建议从经验池E中提取一部分经验,并根据代理的反思生成建议。根据代理反射Rit,从经验集E中检索子集Esub,用于新一轮的训练。



在经验E中,通过使用经验子集Esub,可以避免性能下降。经验子集Esub中得分最低的经验很可能是不好的,而得分接近中位数的经验更可能是好的。因此,只利用这些经验来提取建议。



该文本提到了一个名为G0的不好的经历,但代理可以通过避免这种经历来学习。任务是找出好的经历集合{G1, ···, Gn}与它们之间的差异,并确定其中的好经历。

实验


设置


本文介绍了使用Chatarena框架实现的设计,该框架允许连接多个LLMs。使用gpt-3.5-turbo-0301模型作为后端LLMs。设置了窗口大小K、预定义问题数量L和自由提问问题数量M等参数。同时,介绍了经验检索阈值和建议提取的相关设置。LLM的温度设置为0用于CoTreasoning,0.3用于生成其他内容。


经验池建设


经验池的大小对性能有重要影响,因此我们使用不同数量的游戏回合构建经验池,包括10、20、30和40回合。每一轮,我们随机分配不同的角色给玩家1到7,并在回合结束时更新经验池。需要注意的是,这些回合中的经验池仅用于评估目的,即图2中的第3部分被移除。

为了评估我们提出的借鉴经验的框架的效果,我们为村民、预言家、守卫和女巫配备了经验池,而狼人不允许利用这些池。通过这种方法,我们可以假设扮演狼人的代理人的表现水平保持不变,作为衡量其他代理人表现水平的参考。

初步实验表明,基本的人类先验知识可以作为学习过程中的引导机制,有助于从经验中学习。因此,进一步研究如何利用人类游戏数据构建经验池具有价值,这将作为未来的研究方向。


使用体验分析


代理人利用经验,通过方法生成建议。例如,建议是基于观察和分析投票杀人。

研究使用胜率和平均持续时间来评估AIWolf 5代理的效果。胜率用于衡量代理的表现,而平均持续时间用于评估代理的能力。



实验结果显示,通过经验学习可能会提高村民方的胜率。实验进行了50轮。详见图3a。研究表明,使用经验池可以提高游戏胜率和游戏时间。当使用10或20个历史回合的经验池时,村民方的胜率和游戏时间都有显著的正面影响。当使用30个回合的经验池时,游戏时间明显变长,但村民方的胜率并没有明显变化。当学习40个回合时,村民方的胜率略有提高,但平均游戏时间变短。

我们的框架具备从经验中学习的能力,无需调整LLMs的参数。然而,当经验量较大时,我们的方法的有效性往往不稳定。随着历史经验的增加,村民方的胜率没有明显的趋势。我们推测这可能部分归因于我们引导学习过程的方式,即通过简单的提示和启发式评分,导致监督信号稀疏且间接。因此,仍有改进的空间。

本文提到了一个关键假设,但没有具体说明。本文研究了多方博弈中的学习有限理性模型(LLMs),并通过实验发现,LLMs的能力会随着经验的积累而改变。此外,研究还发现,狼人和村民在游戏中的伪装行为数量也会随着经验的积累而改变。这些结论对于多方博弈中的LLMs游戏具有重要意义。


消融分析


我们进行了详细的消融研究,通过定性和定量分析来验证我们方法中每个组件的必要性。


定性分析


对于定性分析,我们逐个移除方法流程中的每个组件,并通过实证讨论它们对模型输出的影响。

游戏规则、最近的消息、信息性消息、选择和提问以及反思是LLMs决策的必要组成部分。如果删除其中任何一个,代理输出将会受到影响。反思还可以帮助代理澄清当前情况,从而提高决策效果。



这种矛盾的推理过程可能是由于对情况缺乏总结的原因。明显地,情境反思是必要的组成部分。

建议从经验中提取,通过CoT推理帮助LLMs分解复杂的推理过程并产生一些内在的思考。

如果去掉CoT,LLM的最终输出将是选择暂时放弃,并在以后的夜晚保存毒药瓶,直到有更具体的证据证明玩家是狼人身份。

LLMs难以提出更有帮助的问题,直接询问LLMs的问题集可能更有效。可以通过直接询问LLMs来获得问题,例如询问玩家是否透露了身份,是否有可疑行为等。

为了更好地模拟人类决策过程,需要在决策之前注入一些人类因素。在实验中,为不同角色设计了更有帮助和信息量的问题,对代理决策产生了影响。


定量分析


我们进行定量分析时,将我们的整体方法与去除某个特定组件的变体进行比较。我们从变体模型的输出中随机抽取50个回答,并进行人工评估。评估者需要判断输出是否合理。一些不合理的例子可能包括幻觉、忘记他人的角色、采取违反直觉的行动等。



图4表明,我们的方法比其他任何变体都能生成更合理和真实的回复,这表明我们方法的每个部分都是必要的。


突现战略行为


LLMs表现出了一些不在游戏规则或提示中明确预设的战略行为,这些行为可以分为四类,包括信任、对抗、伪装和领导力。

为了探究紧急战略行为是否源自LLM的训练数据,研究人员尝试将提示中的角色名称改为无关的名称,甚至是完全不相关的名称。实验表明,即使在角色名称相反的情况下,玩家仍然会采取类似的策略行为。


信任


“信任”指的是相信其他玩家与自己有共同的目标,并且他们会按照这些目标行动。例如,玩家可能会主动分享对自己不利的信息,或者与其他玩家一起指责某人是他们的敌人。LLMs表现出的有趣行为是,他们倾向于根据某些证据来信任他人,而不是盲目跟随他人。换句话说,他们根据自己的推理来决定是否信任,展示了在团队游戏中独立思考的能力。

研究玩家在游戏中的信任行为如何随着游戏的进行而改变,我们定义了一个信任关系表来可视化不同阶段玩家之间的信任建立。该表包含7行7列,如果玩家i的对话内容表现出对玩家j的信任,我们将T(i, j)设为1。附录A.3提供了一些信任行为的示例。



图5展示了两个信任关系表,上表对应未使用经验池的回合,下表对应使用了20个回合构建的经验池的回合。两个回合都持续5天。

从图5中可以看出,无论是否使用经验,信任行为都会随着游戏的进行逐渐增加。此外,这种行为不是预先编程的,而是在合作和竞争共存的环境中自发产生的。LLMs还会根据自己的分析解决不合理的信任关系。

使用20轮历史经验时,LLMs更倾向于建立信任关系,特别是双向信任。建立必要的信任关系对于促进游戏胜利至关重要。这可能是使用经验提高胜率的原因之一。


对抗


对抗指的是玩家为了两个阵营的对立目标而采取的行动。例如,狼人在夜晚对他人进行明确的攻击,或者在白天指责他人是狼人,都属于对抗行为。具有特殊能力的角色采取的保护自己的行动也属于对抗行为。



狼人想要引导其他玩家消灭一个无辜的玩家,但其他玩家并不仅仅跟随狼人,而是根据自己的判断表达不同意见。这种行为使得狼人很难实现他们的目标,代表了一种隐性对抗。



Player 1的不合作和攻击性行为引起了注意,可能会受到怀疑。有玩家变成了狼人,守卫选择保护上一个被玩家1攻击的目标。守卫希望帮助目标抵御狼人的攻击。狼人的攻击和其他玩家的防御可以看作是对抗性行为。


伪装


伪装是指隐藏身份或误导他人的行为。在信息不完全的竞争环境中,掩盖身份和意图可以增强生存能力,从而帮助实现游戏目标。因此,掩盖身份是一项重要的技能。然而,它不仅仅是保持身份不被揭露或不谈论自己的角色。



狼人游戏中,狼人会伪装成村民来欺骗他人,保护自己。除了狼人外,预言家和女巫等重要角色也会伪装成村民来保护自己。

LLMs可能会编造事件来达到他们的目标,例如白天的例子。



预言家在夜晚无法得到其他人的回应,因此它所说的是假的。但是,它可以向队友传递关于狼人的信息,同时不揭示自己的角色。

这段文字主要讨论了伪装行为是否是幻觉还是理性行为,并在附录中详细探讨了应该如何分类这些行为。


领导力


领导力指的是影响其他玩家、试图控制游戏进程的行动。例如,狼人可能会建议其他人采取有利于狼人的行动。



呼吁行动和指导更容易获得他人的支持。狼人在游戏中呼吁预言家揭露其身份,这可能会使其他玩家与其团结一致。这种影响他人行动的努力展示了LLMs的社交特征,类似于人类的行为。


相关工作


近年来,人工智能在游戏中的应用得到了广泛关注,自我对弈技术已经在围棋和国际象棋等完全信息的双人零和游戏中得到了应用。在不完全信息的游戏中,如德州扑克,也已经实现了超人类的表现。

本文探讨了大型语言模型在玩沟通游戏中的潜力,观察了战略行为的出现。与其他方法相比,大型语言模型在处理语言方面具有优势,可以更好地应对沟通游戏中的挑战。通过这种探索,可以启发新的方法来解决沟通游戏的问题。

学习LLMs的常见方法包括微调和参数高效调整,但在实践中很难实现。最近,通过提示工程来指导LLMs的方法受到更多关注。一些典型的基于提示的工作忽视了从历史经验中学习的能力。目前最相似的工作无法从交叉轨迹经验中学习,或者只适用于两人场景。


总结和未来工作


本文设计了一个沟通游戏框架,并以狼人杀为代表案例探索其可行性。此外,研究了历史经验如何影响LLMs的能力。在游戏过程中,我们观察到LLMs出现了非预编程的紧急战略行为,如信任、对抗、伪装和领导力。

本文指出,虽然早期研究已经使用LLMs构建通信游戏代理,但在这个方向上仍有许多值得进一步研究的问题。首先,如何使代理能够更好地理解和应对复杂的语言交流。其次,如何在不同的场景中应用LLMs,以实现更广泛的应用。最后,如何将LLMs与其他技术结合,以提高代理的性能和效率。

LLM是一种用于游戏AI的新方法,可以提高游戏技巧,如教授人类玩家经验或自主探索。需要进一步探索如何构建不变基线来评估多LLM设置的能力,并减少幻觉的影响,促进其在实际场景中的应用。未来的工作将包括将该方法应用于更广泛的游戏,并进一步增强其游戏能力。


限制


研究方法存在一些限制,包括幻觉对生成内容的准确性和推理能力的负面影响,历史经验的利用空间有待扩大,以减轻噪音的不良影响和利用跨游戏的普遍经验,未来研究将探索更强大的经验利用策略,并与人类表现进行比较。

▌关于我们

灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。


我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。

淘宝店铺:公众号后台回复“淘宝”获取店铺地址
商务合作:发送邮件至lingdu_tech@163.com邮箱

关注【灵度智能】公众号,获取更多AI资讯。

继续滑动看下一个
灵度智能
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存